Agent 是不是在绕开训练模型?
读 Hello-Agents 的第十章和第十一章时,我逐渐意识到一件事:
我们现在谈论的大多数 Agent 内容,本质上不是在讨论“智能”,而是在讨论“工程补丁”。
这不是贬义,而是一个阶段性的事实。
一、Agent 协议看似繁荣,其实解决的是“协作”,不是“能力”
第十章介绍了三种所谓的“智能体通信协议”:MCP、A2A 和 ANP。
它们确实重要,但重要的方式,可能和很多人想象的不太一样。
**MCP(Model Context Protocol)**解决的是:
Agent 如何以一种更工程化的方式使用工具
它强调“上下文共享”,但从实现上看,更准确的说法是:
为 Agent 与工具之间的交互,提供一个有生命周期的上下文容器,而不是每次调用都重新塞 prompt。
这是工程进步,但它并没有让 Agent 变“更聪明”,只是让调用工具这件事更干净、更可维护。
A2A 和 ANP 则把问题推向另一个层面:
Agent 如何调用 Agent?
Agent 如何在网络中发现其他 Agent?
逻辑上它们成立,工程上也很优雅,但 Hello-Agents 自己也承认:
这些都还处在非常早期的阶段。
所以到这里,一个事实已经很清楚了:
当前最成熟、最可用的 Agent 技术,并没有提升模型能力,而是在补偿模型的不稳定性。
这句话,是后面所有困惑的起点。
二、第十一章让我真正困惑的,不是 RL,而是“到底在训练谁”
如果说协议只是“我有所保留”,那第十一章的 Agentic Reinforcement Learning,第一次让我明确卡住了。
问题其实很简单:
-
LLM 的强化学习我能理解
-
但 Agent 的强化学习,训练的到底是什么?
Gemini 给了一个非常直接的回答:
物理上,你是在训练 LLM 的权重;
逻辑上,你是在训练这个模型扮演“Agent”的方式。
ChatGPT 的说法更工程一些:
Agent 不是被训练的实体,它是一个由 LLM 驱动、在环境中反复决策的系统。
把这两种说法合在一起,结论反而非常清楚:
所谓 Agentic RL,本质上仍然是 LLM 训练。
Agent 并没有“学会”什么,它只是表现为一种被训练过的策略集合。
最终交付给用户的,依然只是一个权重文件。
三、一个越来越难忽视的问题:我们是不是在用框架,绕开“训练模型”?
到这里,我反而更加坚定了一个从一开始就隐约存在的想法:
现在大家拼命讨论 Agent 框架、范式、协作,本质上是不是在回避一件更难的事:训练模型?
知乎上有个很火的问题:
Qwen3-0.6B 这种小模型有什么意义?
换个角度问可能更刺耳:
对于大量窄任务 Agent,为什么不直接训练一个 0.6B 的专用模型?
Gemini 的回答非常“现实主义”,甚至有点残酷。
它认为现在大家之所以卷框架,是因为:
-
用的是通用大模型
-
模型太聪明、太发散、太不可控
-
框架的本质,是用大量工程手段去约束一个不合适的模型
它给了一个很形象的比喻:
你雇了一个绝顶聪明、热爱写诗的诗人来拧螺丝。
因为他总想写诗,你只好安排一整套监工系统盯着他。
而真正的终局是:
直接训练一个只会拧螺丝的小模型。
不需要监工,也不需要复杂框架。
四、那为什么现在 Agent 仍然有意义?
答案其实很朴素:数据。
在你能训练一个稳定、可靠的 0.6B 专用模型之前,你需要大量高质量的行为数据。
而这些数据从哪来?
Gemini 给出的路径,我认为是目前最符合现实的 Agent 落地闭环:
-
原型期:用大模型 + Agent 框架跑通流程
-
蒸馏期:记录成功运行的轨迹,形成高质量数据
-
工程化期:微调小模型,抛弃复杂框架
如果这个判断成立,那么一个略显反直觉的结论就出现了:
Agent 框架,可能并不是终局,而是为了走向“专用模型时代”的过渡工具。
最近很火的 MiroThinker,用 30B 权重跑出接近大模型的能力,也许正是这个方向的一个信号。
Agent 会不会消失?我不知道。
但我越来越怀疑:
当模型足够“对口”,我们今天热烈讨论的很多 Agent 问题,可能会自然蒸发。
后记:我知道在OpenClaw爆火出圈的今天发表这样的观点肯定会被人吐槽外行。不要紧,咱们下次再聊,也许我有点其他的观点呢?让子弹再飞一会儿。
加载中...